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Resumo 

Esta visao geral e urn estudo dos metodos usados em uma variedade de universidades e 
bibliotecas e arquivos governamentais internacionais para selecionar, adquirir, descrever e 
acessar recursos da web para seus arquivos. A criagao de urn arquivo da Web apresenta 
muitos desafios, e as bibliotecas e escolas de informagao devem garantir que a instrugao 
em metodos e habilidades de arquivamento na Web seja parte de seus curriculos, para 
ajudar os futures profissionais a enfrentar esses desafios. Na preparagao para o 
desenvolvimento de urn curso de arquivamento na web, o autor realizou uma revisao 
abrangente da literatura. As descobertas sao relatadas neste documento, juntamente com 
as visoes do autor sobre alguns dos metodos em uso, tais como conceitos e teorias 
tradicionais de gerenciamento de arquivos podem ser aplicados a organizagao e a 
descrigao de recursos da Web arquivados. 

Introdugao 

O arquivamento na Web e o processo de reunir dados que foram registrados na World Wide 
Web, armazenando-os, garantindo que os dados sejam preservados em urn arquivo morto e 
disponibilizando os dados coletados para pesquisas futuras. O Internet Archive e varias 
bibliotecas nacionais iniciaram praticas de arquivamento na web em 1996 . O International 
Web Archiving Workshop (IWAW), iniciado em 2001 , forneceu uma plataforma para 
compartilhar experiences e trocar ideias. A fundagao posterior do International Internet 
Preservation Consortium (IIRC), em 2003 , facilitou muito a colaboragao internacional no 
desenvolvimento de padroes e ferramentas de codigo aberto para a criagao de arquivos da 
web. Esses desenvolvimentos e a crescente parcela da cultura humana criada e registrada 
na web se combinam para tornar inevitavel que mais e mais bibliotecas e arquivos tenham 
que enfrentar os desafios do arquivamento na web. 

As escolas de informagao e biblioteca precisam preparar os alunos para esses desafios. 
Uma pesquisa dos catalogos de cursos das 32 melhores escolas de informagao e biblioteca 
dos EUA, no outono de 2010 , descobriu que apenas uma escola, a Universidade de 
Michigan, ofereceu urn curso semestral sobre arquivamento na web. A Universidade de 
Indiana abordou o arquivamento na Web como urn topico em seu curso "Analise de 



conteudo para a Web". A UCLA cobriu o arquivamento na Web como um topico em seu 
curso de 'Gerenciamento de Registros Digitais' (US News e World Report Weekly, 2009). 
Embora muitas escolas, por exemplo, a Universidade de Illinois, oferegam cursos sobre 
preservagao digital, curadoria digital e o impacto da web 2.0 na teoria e na pratica de 
arquivamento, nao se sabe ate que ponto qualquer deles aborda problemas de 
arquivamento na web. O autor acredita que o arquivamento na web requer conhecimento e 
habilidades unicas suficientes para exigir um curso separado. Na preparagao para o 
desenvolvimento de um curso de arquivamento na web, o autor realizou uma revisao 
abrangente da literatura e avaliou as funcionalidades de varios arquivos da web 
proeminentes. Este artigo, e um segundo artigo tambem publicado na revista D-Lib, 
"Functionalities of Web Archives", resultou da pesquisa de preparagao do curso. 

Como o gerenciamento de muitos outros tipos de recursos de informagoes, o fluxo de 
trabalho do arquivamento na web inclui avaliagao e selegao, aquisigao, organizagao e 
armazenamento, descrigao e acesso. Esse fluxo de trabalho e o nucleo do arquivamento na 
web. As segoes a seguir revisam os metodos usados em cada etapa do fluxo de trabalho e 
apresentam os pontos de vista do autor sobre alguns desses problemas. Embora a 
preservagao digital seja definitivamente uma etapa importante no processo geral de 
arquivamento na web, ela nao e exclusiva do arquivamento na web. A preservagao dos 
recursos da web nao e diferente da preservagao de outros recursos digitais. Ele pode ser 
coberto em um curso de biblioteca digital ou tambem em um curso de gerenciamento de 
registros eletronicos. Portanto, esta revisao nao cobre a preservagao digital. 

Avaliagao e Selegao 

O termo avaliagao e usado na comunidade de arquivos para se referir ao processo de 
avaliagao do valor dos registros e para decidir se e por quanto tempo os registros devem 
ser preservados. E essencialmente um processo de selegao. Neste artigo, e usado como 
sinonimo de selegao. Todos os arquivos da web selecionam recursos da web para 
preservar com base em um ou mais criterios. Embora o Internet Archive tente arquivartoda 
a Web, ele apenas captura paginas da Web na superficie da Web (Lecher, 2006). As 
paginas da Web mais abaixo na hierarquia de sites geralmente nao sao coletadas pelo 
Arquivo da Internet. 

Os esforgos de arquivamento da Web existentes usam os seguintes criterios de selegao 
para determinar o que preservar: domrnio (como .gov ou .edu), topico ou evento, tipo de 
midia e genero. Muitos paises europeus arquivam a web em seu domrnio de pais. A 
biblioteca do Centro de Voo Espacial Goddard da NASA (GSFC) captura paginas no 
domrnio Goddard (Senserini et al., 2004). A Biblioteca do Congresso criou varias colegoes 
na web baseadas em eventos, como os arquivos da web de 11 de setembro de 2001, os 
arquivos da web para a eleigao e os arquivos da web da Guerra do Iraque 2003 (Biblioteca 
do Congresso, 2011). A selegao baseada no tipo de midia inclui ou exclui determinados 
tipos de midia. A biblioteca Goddard, por exemplo, evita o rastreamento de grandes 
arquivos de video e produtos de software (Senserini et al., 2004). O projeto de 
arquivamento da web conduzido por Chirag Shah e Gary Marchionini (2007), por outro lado, 
focou na preservagao de videos eleitorais no Youtube. Alguns arquivos da web sao 



selecionados com base em generos como blogs, jornais, mundos virtuais, etc. A Biblioteca 
Nacional da Franga criou uma colegao eletronica de e-diarios (Lasfargues et al., 2008). O 
Arquivo da Internet possui um arquivo de software e um arquivo de videos de videogame 
(Internet Archive, 2001a; Internet Archive, 2001b). O projeto Preserving Virtual Worlds 
realiza pesquisas especificamente sobre o arquivamento de mundos virtuais on-line 
(Preserving Virtual Worlds, 2008). Antonescu, et al. (2009) apontou duas abordagens 
diferentes para preservar os mundos virtuais online. Uma abordagem preserva a 
infraestrutura tecnica - os objetos e os avatares existentes nos mundos virtuais - enquanto a 
outra abordagem preserva a interagao e as experiences de vida dos avatares nos mundos 
virtuais. Winget e Murray realizaram pesquisas para preservar os registros e artefatos 
criados durante o processo de desenvolvimento de videogames (Winget e Murray, 2008). 

Teoricamente, a selegao baseada em criterios objetivos pode ser facilmente automatizada. 
Em um nivel tecnico, e facil para o software decidir o tipo de midia (audio, video ou texto) e 
o dormnio (por exemplo, .gov ou .au) dos recursos da web. Da mesma forma, nao deve ser 
muito dificil diferenciar entre generos como diarios on-line ou blogs, ou perceber as 
diferengas entre as postagens do blog e os comentarios. E possivel identificar conteudo da 
web de alta qualidade ou popular com base no numero de links e visitantes recebidos, 
numero de espectadores de videos on-line e classificagoes de usuarios. A Biblioteca 
Nacional da Republica Tcheca automatizou a identificagao da Web tcheca fora do dormnio 
nacional, que inclui sites tchecos que nao estao no dormnio .cz, mas em dominios .net, 
.com, .org ou .edu (Vlcek, 2008). Um WebAnalyzer foi criado e integrado ao rastreador. 
Durante o rastreamento, o WebAnalyzer analisa paginas da web e procura por algumas 
propriedades pre-definidas que caracterizam a web tcheca. Toda vez que uma propriedade 
predefinida e encontrada, uma certa quantidade de pontos e adicionada ao URL. Quando 
um certo limite e atingido, a pagina da web e considerada parte da web tcheca e sera 
arquivada. 

Selegao baseada em topico ou evento, no entanto, precisa de julgamento humano. A 
selegao manual por profissionais da informagao e demorada e cara e, portanto, e usada 
apenas em arquivos da Web de pequena escala. Para reduzir o custo da selegao manual, 
alguns arquivos da Web aceitam URLs recomendados pelo usuario, usam registros 
existentes de URLs ou envolvem especialistas em assunto para ajudar na selegao de 
recursos da Web para arquivamento. A Preservagao e Acesso aos Recursos 
Documentarios em Rede da Australia (PANDORA) e os arquivos da Web da Biblioteca 
Nacional da Universidade de Taiwan aceitam sites recomendados pelo usuario (Biblioteca 
Nacional da Australia, 2008; Chen et al., 2008). O Arquivo Digital para Estudos Chineses 
(DACHS) convidou academicos especialistas em estudos Chineses para recomendar sites 
relacionados (Lecher, 2006). O projeto de arquivamento na web do governo do Reino Unido 
seleciona sites usando um registro de todos os sites do governo central do Reino Unido; As 
URLs no registro sao enviadas e mantidas pelos gerentes do site (Spencer et al., 2009). 

Outra maneira de acelerar a selegao manual e usar a teoria de macroavaliagao no campo 
de gerenciamento de arquivos. Conforme explicado no Modelo do Arizona para curadoria de 
publicagoes da web do governo, a avaliagao macro envolve avaliagao e selegao de recursos 
da web com base em agregados de paginas da web em vez de paginas da web individuals 



(Pearce-Moses e Kaczmarek, 2005). A avaliagao de agregados reduz o tamanho do 
problema e torna o processo de avaliagao mais eficiente. Os agregados podem ser 
decididos em diferentes niveis. A Administragao Nacional de Arquivos e Registros dos EUA 
(NARA) utilizou varias unidades de analise em sua orientagao para que agendas 
governamentais conduzissem analises de risco para registros da Web: grupo de sites, um 
site inteiro, um site menos uma ou duas partes que exibissem caracteristicas 
substancialmente diferentes. e clusters de paginas web (NARA, 2005). Essas varias 
unidades de analise tambem podem ser aplicadas na selegao de arquivamento na web. Por 
exemplo, bibliotecarios ou arquivistas podem avaliar o valor de um site inteiro em vez de 
paginas individuals da web para decidir se o site deve ser arquivado. 

Os criterios de selegao, como dominio ou tipo de midia, podem ser associados a uma 
selegao baseada em valor ou a um metodo de amostragem representative. O arquivo da 
web da Universidade Nacional de Taiwan reune recursos da web que sao valiosos de 
pontos de vista historicos, culturais, sociais, educacionais ou academicos (Chen et al., 
2008). A filtragem de spam tambem e um tipo de metodo de selegao baseado em valor. A 
amostragem representativa, por outro lado, evita a subjetividade e o vies na avaliagao 
baseada em valor e tenta criar uma imagem representativa do que deve ser preservado. 
Lyle (2004) aplicou a estrategia de amostragem a recursos da Web que foram baixados por 
rastreadores como uma forma de reduzir a quantidade de recursos da Web a serem 
arquivados. A Biblioteca Nacional da Franga usou a estrategia de amostragem para decidir 
a lista de sementes e os criterios de filtragem antes de rastrear; A Biblioteca Nacional 
acredita que as colegoes devem "espelhar a sociedade e a cultura francesas em toda a sua 
diversidade, independentemente do valor cientifico ou da popularidade das publicagoes" 
(Lasfargues et al., 2008). Devido a esta crenga, "o arquivo web inclui o 'melhor' (literatura, 
publicagao cientifica) assim como o 'pior' (de propagandas a pornografia). Pequenas, 
medias e grandes tern a mesma chance de serem coletadas" (Lasfargues et al., 2008). 

Aquisigao 

Dependendo da escala do arquivo da Web, da relagao entre o arquivo da Web e os 
proprietaries do site e a natureza do conteudo da Web arquivado, diferentes metodos de 
aquisigao podem ser usados para obter o conteudo da Web. Bibliotecas e arquivos tern uma 
longa tradigao de aceitar transferences de agendas governamentais, doadores e depositos 
legais de editores. Este metodo ainda se aplica ao arquivamento da web. Por exemplo, o 
NARA pediu a todos os departamentos federais que entregassem um instantaneo de seu 
site para o NARA ate o final do mandato do presidente Clinton (Bellardo, 2001). Adrian 
Brown (2006) apontou que os sites dinamicos baseados em banco de dados nao sao 
adequados para transference direta, porque os bancos de dados sao geralmente 
proprietaries e diffeeis de preservar a longo prazo. Lima abordagem mais facil e converter 
dados de bancos de dados proprietaries em um formato padrao aberto, como XML, usando 
uma ferramenta como o DeepArc. 

Um metodo de aquisigao exclusivo para arquivamento na web esta sendo rastreado. Esse 
metodo depende de rastreadores para coletar conteudo de servidores da web. Os 
rastreadores usam uma lista de origens para iniciar o download do conteudo da Web e 



seguem os hiperlinks para descobrir e baixar o conteudo da Web adicional. As decisoes de 
selegao sao a base para compilar uma lista de sementes e configurar os parametros do 
rastreador. Por exemplo, a Biblioteca Nacional da Franga decidiu rastrear todos os sites nos 
dormnios de primeiro nivel .fr e .re e qualquer outro dormnio que tenha sido redirecionado 
de um dormnio .fr ou .re (Lasfargues et al., 2008). Essa decisao de selegao e configurada 
nos rastreadores como um filtro. Apenas os links que passam pelo filtro serao arquivados. O 
rastreamento esta substituindo o deposito na aquisigao de publicagoes da Web em algumas 
bibliotecas e arquivos. Por exemplo, a Biblioteca Estadual do Arizona mudou para 
rastreamento de espera de submissoes de agendas do governo estadual (Pearce-Moses e 
Kaczmarek, 2005). Alguns recursos da Web precisam ser capturados manualmente devido 
as limitagoes do rastreador. Por exemplo, alguns rastreadores nao podem coletar arquivos 
GIS, conteudo dinamico da web ou fluxo de midia. O NARA fornece um guia para metodos 
de captura apropriados de formatos de registro de conteudo da web especificos que nao 
podem ser capturados por rastreadores (NARA, 2004). 

O rastreamento repetido de paginas nao atualizadas gera duplicatas no arquivo da Web, o 
que desperdigara recursos para gerenciamento, armazenamento e preservagao. 
Felizmente, os rastreadores inteligentes atuais, como a versao atual do Heritrix, tern a 
funcionalidade de reduzir as duplicatas no download e no armazenamento de recursos da 
web. O rastreamento repetido de sites grandes e atualizados com frequencia causa 
incoerencia temporal. Pode levar varios dias ou ate mais para rastrear um site grande, 
durante o qual os sites estao passando por alteragoes. Suponha que haja duas paginas da 
Web (pi e p2) em um site. O rastreador fez o download de pi no horario tl. Quando o 
rastreador atinge p2, p2 e pi foram atualizados para p2-a e pi-a, respectivamente. Nesse 
cenario, o site original inclui pi e p2, o site atualizado contem pl-ae p2-a, mas o site 
arquivado inclui pi e p2-a. Em outras palavras, o rastreador coletou um site que nunca 
existiu. Pesquisas estao sendo conduzidas para reduzir a incoerencia temporal em arquivos 
da web (Spaniol et al., 2008). 

Ao adquirir recursos da Web, a decisao de solicitar permissao de proprietaries de direitos 
autorais depende do ambiente legal do arquivo da Web, da escala do arquivo da Web e da 
natureza do conteudo arquivado e da organizagao de arquivamento. Em um pais onde o 
deposito legal cobre recursos da web, como a Nova Zelandia, a biblioteca de deposito legal 
nao precisa buscar permissao para arquivar publicagoes da Web produzidas naquele pais. 
Os arquivos do governo que tern o mandato legal para preservar registros publicos, como o 
NARA e o Arquivo Nacional do Reino Unido, tambem nao precisam pedir permissao aos 
produtores de discos. No mesmo ambiente legal, e mais provavel que a busca de permissao 
seja realizada para arquivamento da Web em pequena escala, em vez de em grande 
escala, porque e mais facil solicitar a permissao de um numero relativamente pequeno de 
proprietaries de direitos autorais. Arquivos da Web de grande escala, como o Arquivo da 
Internet, tendem a usar o mecanismo de desativagao (obedega a exclusao de robos e 
permita a remogao de solicitagoes). Hal Varian (2006) argumentou que o mecanismo de 
desativagao do Projeto de Biblioteca do Google e uma escolha sensata, porque o custo de 
transagao do modelo opt-in, no qual a permissao e solicitada, e alto demais para ser 
bem-sucedido. Esse argumento tambem e valido para o arquivamento na Web, talvez ainda 
mais porque a maioria dos arquivos da Web nao se beneficia financeiramente com o 



arquivamento de conteudo da Web e e dificil identificar os proprietaries dos direitos autorais 
de conteudo da Web postados por usuarios anonimos. 

A escala do esforgo de arquivamento na Web tambem afeta a decisao de obedecer a 
exclusao de robos. De acordo com uma lei de direitos autorais de 2006 da Franga, a 
Biblioteca Nacional da Franga pode ignorar a exclusao de robos enquanto rastreia a web 
francesa (Lasfargues et al., 2008). Na pratica, a Biblioteca Nacional da Franga geralmente 
nao obedece a exclusao de robos ao executar rastreamentos focados em pequena escala, 
mas obedece a exclusao de robos em rastreamentos amplos porque e mais facil gerenciar 
as consequencias (como protestos de proprietaries de sites e rastreadores de rastreadores 
associados) de ignorar a exclusao de robos no arquivamento da Web de pequena escala do 
que no arquivamento da Web em grande escala (Lasfargues et al., 2008). A natureza do 
conteudo arquivado tambem afeta a decisao de solicitar permissao ou nao. A Biblioteca do 
Congresso procura permissao para arquivar blogs e sites de organizagoes de noticias, mas 
apenas notifica a maioria dos outros tipos de sites que a biblioteca esta arquivando em seus 
sites (Grotke e Jones, 2010). 

Organizagao e Armazenamento 

Os arquivos da Web precisam preservar a autenticidade e a integridade do conteudo da 
Web arquivado. Os requisitos de autenticidade e integridade variam de acordo com o 
objetivo da coleta. Em alguns cenarios, preservar apenas o conteudo intelectual e 
suficiente. Em outros cenarios, como na preservagao de evidencias legais, a estrutura e o 
contexto dos recursos tambem podem precisar ser preservados. Na teoria tradicional de 
gerenciamento de arquivos, o contexto dos registros de arquivos inclui a proveniencia e a 
ordem original. A proveniencia inclui informagoes sobre a origem dos registros, como os 
produtores de registros, as transagoes que fazem com que os registros sejam produzidos e 
a cadeia de custodia. A ordem original e a ordem na qual os produtores de registros ou os 
gerentes de registros organizaram originalmente os registros para demonstrar as relagoes 
entre os registros. Embora muitos arquivos da Web preservem o conteudo da Web como 
recursos de informagao, e nao como evidencia, o conceito de proveniencia ainda se aplica. 
Para recursos da web arquivados, a proveniencia inclui a URL de urn site, os produtores de 
conteudo e a transagao comercial ou a finalidade que causou a produgao dos recursos da 
web. O URL e urn metadado externo associado ao recurso da web. Outras informagoes 
sobre proveniencia sao frequentemente incorporadas no conteudo do recurso da web. 

Para recursos da web, o conceito de ordem original pode ser combinado com o conceito de 
estrutura definido na teoria tradicional de gerenciamento de arquivos. A ordem original e 
essencialmente a estrutura externa do objeto da web arquivado. A estrutura definida na 
teoria tradicional de gerenciamento de arquivos e essencialmente a estrutura interna do 
objeto da web arquivado. Por exemplo, para urn site arquivado, sua estrutura externa 
mostra como este site e organizado em relagao a outros sites, o que tambem pode ser 
considerado como a ordem original do site. Links de entrada que vem de fora do site e links 
de saida deste site para outros sites sao parte desta estrutura externa e, portanto, a ordem 
original deste site. A estrutura hierarquica interna do site mostra como os componentes e 
subcomponentes deste site sao organizados em relagao uns aos outros, o que pode ser 



considerado como a estrutura definida na teoria tradicional de gerenciamento de arquivos. 
Essa estrutura interna e definida pelos hiperlinks no site. Para um objeto arquivado de nivel 
inferior, como uma pagina da Web, a estrutura externa mostra como essa pagina da Web e 
organizada em relagao a outras paginas da Web. Os links de saida desta pagina da Web e 
os links recebidos de fora desta pagina definem a estrutura externa e a ordem original desta 
pagina da Web. A estrutura interna mostra como os componentes internos desta pagina 
web, por exemplo, como o conteudo textual, imagens, audio, videos, etc, estao dispostos. 
Em colheitas repetidas, o contexto historico que mostra como o conteudo da Web evoluiu 
tambem existe. Inclui as versoes mais antigas e mais recentes das paginas da web. 

De acordo com Masanes (2006), os arquivos da web atuais usam principalmente tres 
abordagens para organizar e armazenar conteudo da web arquivado: sistemas de arquivos 
locals, arquivos baseados na web e arquivos nao baseados na web. Todas as tres 
abordagens preservam o conteudo intelectual das paginas da Web, mas variam no grau de 
preservagao do contexto e da estrutura. 

Em um arquivo da Web que usa um sistema de arquivos local, o navegador pode navegar 
no sistema de arquivos da mesma forma que navega na Web (Masanes, 2006). Tanto a 
estrutura hierarquica interna dos sites quanto os relacionamentos de links entre os 
diferentes sites sao preservados, exceto os links nao arquivados que estao fora do escopo 
do arquivo da web. No entanto, duas transformagoes contextuais precisam ser feitas para 
permitir que recursos da Web se encaixem em sistemas de arquivos. Primeiro, a 
nomenclatura dos URIs precisa ser modificada para estar em conformidade com as regras 
dos sistemas de arquivos locals. Segundo, os links absolutos precisam ser transformados 
em links relativos para permitir a navegagao dentro do sistema de arquivos, caso contrario, 
os links absolutos apontarao para paginas da Web ativas em vez de conteudo arquivado. 

Em um arquivamento baseado na Web, as paginas da Web e os metadados associados sao 
agrupados e armazenados em arquivos de container e os links e URIs originals sao 
preservados. Embora os links tambem precisem ser redirecionados ou transformados para 
apontar para o arquivo morto, e nao para a Web ativa, o redirecionamento ou transformagao 
do link ocorre apenas quando os usuarios acessam esses links, em vez de precisarem ser 
gravados no arquivo morto. Esta segunda abordagem preserva a autenticidade ao maior 
grau. 

A abordagem de arquivamento nao baseado na Web extrai documentos da Web do 
contexto de hipertexto e reorganiza-os em um modo de acesso baseado em catalogo ou os 
transforma em arquivos PDF. Essa abordagem preserva a autenticidade e a integridade ao 
menor grau. 

Descrigao e Metadados 

A abordagem de geragao de metadados e a riqueza de metadados gerados variam de 
acordo com a escala do arquivo da Web e os recursos disponiveis na organizagao de 
arquivamento. Arquivos web muito grandes geralmente dependem da geragao automatica 
de metadados. Algumas informagoes de metadados, como o timestamp gerado quando o 



recurso da Web foi coletado, o codigo de status (por exemplo, 404 para nao encontrado ou 
303 para redirecionamento), o tamanho em bytes, o URI ou o tipo MIME (por exemplo, text / 
html ), pode ser criado ou capturado por rastreadores. As informagoes de metadados 
tambem podem ser extraidas das meta tags de paginas HTML, embora algumas metatags 
nao sejam precisas devido a Otimizagao do Mecanismo de Pesquisa. O projeto do Grego da 
Web extrai automaticamente palavras-chave de paginas da Web e texto ancora e, em 
seguida, usa as palavras-chave para classificar paginas da Web em clusters (Lampos et al., 
2004). 

Arquivos da Web em pequena escala podem criar metadados manualmente. O arquivo de 
literatura de campanha on-line da Universidade da California em Los Angeles usa o padrao 
de metadados Dublin Core, cabegalhos de assunto da Biblioteca do Congresso e listas de 
autoridade definidas localmente. Seus metadados administrativos sao derivados das notas 
detalhadas criadas pela equipe durante o processo de captura e revisao (Gray e Martin, 
2007). O arquivo digital dos arquivos da web de Estudos Chineses convidou os academicos 
a contribuirem com alguns metadados descritivos (Lecher, 2006). Os Arquivos da Web da 
Universidade Nacional de Taiwan criaram urn esquema de classificagao hierarquica de tres 
niveis e regras de catalogagao especialmente para o conteudo da web (Chen et al., 2008). 
Os metadados tambem podem ser criados por meio de marcagao, comentario ou 
classificagao do usuario. A Biblioteca do Congresso gera automaticamente registros do 
Esquema de Descrigao de Objeto de Metadados (MODS) com base em metadados criados 
por nominadores de URL e, em seguida, aprimora os registros por catalogadores (Grotke e 
Jones, 2010). 

Colegoes de arquivos da Web tern uma estrutura hierarquica de varios niveis. Uma colegao 
de arquivos da Web pode incluir varias sessoes de rastreamento. Em cada sessao de 
rastreamento, varios sites sao rastreados. Cada site inclui muitas paginas da web. Cada 
pagina da Web pode ser composta de muitos arquivos, como urn arquivo de texto, urn 
arquivo de imagem e urn arquivo de video. Essa estrutura hierarquica corresponde a 
estrutura hierarquica de uma colegao de archive. Os metodos de descrigao multimvel 
usados para arquivos podem ser aplicados a sites arquivados. A comunidade de arquivos 
usa uma abordagem de cima para baixo: os metadados sao criados para os niveis mais 
altos primeiro; depois, se os recursos estiverem disponiveis, os metadados para o nivel 
inferior serao criados; metadados criados para niveis mais altos podem ser herdados por 
niveis mais baixos; os metadados sao raramente criados para objetos no nivel do item. 
Essa abordagem de cima para baixo e o mecanismo de heranga de metadados tambem 
podem ser aplicados a arquivos da web. Alem disso, alguns metadados para os objetos de 
nivel de item, como formato de arquivo, tamanho em bytes e data de modificagao, podem 
ser extraidos automaticamente. 

No caso em que urn arquivo da web decide usar uma abordagem bibliografica e criar 
apenas uma descrigao de nivel unico, ele deve escolher a unidade de descrigao com base 
na escala dos arquivos da web e dos recursos disponiveis. Uma unidade de descrigao em 
urn nivel superior, como urn site inteiro, significa uma descrigao menos detalhada e menos 
registros de metadados serao criados. O arquivo da Web da Biblioteca do Congresso e da 
Universidade de Harvard cria urn registro MARC para uma colegao de arquivos da Web que 



inclui muitos sites. Este registro MARC e pesquisavel atraves do catalogo da biblioteca. 
Uma unidade de descrigao em um nivel inferior, como os resultados no nivel da pagina em 
uma descrigao mais detalhada e mais registros de metadados, sera criada. Alem dos 
registros MARC de uma colegao de arquivos da Web, o arquivo da Web da Biblioteca do 
Congresso tambem cria registros de MODS para sites (Biblioteca da Web do Congresso, 
2011). Esses registros de MODS sao pesquisaveis no arquivo da Web, mas nao podem ser 
acessados pelo catalogo da biblioteca. A PANDORA tambem escolhe um site e uma parte 
de um site como unidades de descrigao (Hallgrimsson, 2006). 

Acessar e usar 

A acessibilidade dos arquivos da web depende do ambiente legal do pais no qual o arquivo 
esta hospedado. A legislagao de deposito legal da Nova Zelandia permite que a Biblioteca 
Nacional da Nova Zelandia preserve quaisquer paginas dispomveis publicamente de um site 
da Nova Zelandia e fornega acesso a copia arquivada do site (Biblioteca Nacional da Nova 
Zelandia, 2010). Nos EUA, a Biblioteca do Congresso torna os registros bibliograficos de 
todos os sites arquivados publicamente acessiveis e so pode fornecer acesso publico a 
paginas da Web cujos produtores deram permissao (Grotke e Jones, 2010). Muitos arquivos 
da web sao arquivos obscuros ou apenas acessiveis no local, como os arquivos da web da 
Biblioteca Nacional da Franga e do Institut National de I'Audiovisuel (INA) da Franga, o 
arquivo web finlandes, Netarchive.dk, Web Archive Norway, o Webarchive da Eslovenia, 
Web Archive Suiga e Web Archive Austria (International Internet Preservation Consortium, 
2011). Alguns arquivos da web acessiveis ao publico oferecem funcionalidade reduzida e 
acesso atrasado para evitar a concorrencia com os proprietaries de sites (Masanes, 2006). 
Por exemplo, ha um atraso de pelo menos tres meses entre o momento em que um site e 
coletado e quando ele sera exibido no WAX (Harvard University Library, 2009). No caso da 
IA Wayback Machine, o atraso e de 6 a 12 meses (Archive-it, 2011). 

O recurso de pesquisa de diferentes arquivos da web depende da riqueza de metadados e 
das ferramentas de pesquisa e indexagao usadas. O arquivo da web da Biblioteca do 
Congresso e o arquivo da web da Nova Zelandia dao suporte a pesquisa por meio de 
pontos de acesso controlados por autoridades. Isso foi possivel gragas ao fato de que esses 
dois arquivos da web usavam cabegalhos de assunto em seus registros de metadados para 
sites arquivados. Os arquivos da Web baseados no Wayback Machine, por outro lado, sao 
pesquisaveis apenas por URL, enquanto os arquivos da Web baseados no mecanismo de 
pesquisa NutchWax tambem podem oferecer suporte a pesquisa de texto completo. 
Algumas interfaces de acesso avangadas foram criadas. O arquivo da web do Reino Unido 
criou duas interfaces de visualizagao para seus arquivos da web com base no conteudo de 
mineragao, nuvens de tags e uma parede 3D (UK Web Archive, 2011). Jatowt et al. (2008) 
tambem experimentaram varios metodos avangados para exibir as versoes historicas das 
paginas da web; eles criaram uma apresentagao de slides e um grafico bidimensional para 
mostrar como o conteudo de uma URL evoluiu ao longo do tempo. 


Conclusao e o proximo passo 



Os arquivos da web existentes demonstram uma variedade de metodos e abordagens para 
selecionar, adquirir, organizar, armazenar, descrever e fornecer acesso. Essa variagao e 
causada por fatores externos, como o ambiente juri'dico e os relacionamentos entre os 
produtores de recursos da Web e o arquivo da Web, alem de fatores internos, como a 
natureza do conteudo da Web arquivado, a natureza da organizagao de arquivamento e a 
escala de o arquivo da Web e a capacidade tecnica e financeira da organizagao de 
arquivamento. 

Esta visao geral e baseada em uma revisao abrangente da literatura que explica como o 
arquivamento da web esta sendo feito. No entanto, nenhuma literatura aborda diretamente 
os conhecimentos e habilidades requeridos pelos profissionais da area que realizam a rotina 
diaria de selegao, aquisigao e catalogagao de arquivos da web. O autor esta planejando urn 
projeto de pesquisa para preencher essa lacuna, para o qual bibliotecarios e arquivistas que 
realizam essas tarefas serao entrevistados. Os pontos de vista dos profissionais fornecerao 
informagoes adicionais valiosas para o design do curso de arquivamento na Web que esta 
sendo desenvolvido a partir dos resultados dessa pesquisa bibliografica e de uma avaliagao 
das funcionalidades do arquivo da web. 
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